🔸چالشهای معنایی مدلهای هوش مصنوعی در متنها، و ظرافت آنها در تصاویر
🔹اکنون که جهان در حال تغییر بسیار سریع تکنولوژی قرار گرفته و هوش مصنوعیها هر روز پیشرفتهتر میشوند، میخواهیم به این مسئله بپردازیم که چرا ماشین زودتر در استدلال و عمق دادن به تصاویر مهارت پیدا میکند و چرا در متنها با چالشهای جدی مواجه میشود.
🔹مدل های تولید تصویر (Text-to-Image Models) و (image to image )
مانند DALL-E 3، Midjourney و Stable Diffusion، Chat gpt, و همچنین قویترین مدل فعلی نانو بنانا پرو،
با سرعتی خیرهکننده به سطحی از رئالیسم و عمق بصری دست یافتند که مرز میان عکاسی و تصویرسازی دیجیتال را تقریبا محو کردهاند.
این مدلها قادرند بافت، نورپردازی، پرسپکتیو و حتی حالات چهرهای که بار عاطفی دارند را با مهارتی در سطح یک عکاس و نقاش بازسازی و تقلید کنند.
توانایی آنها در خلق جزئیات بصری چنان پیشرفت کرده که تشخیص مصنوعی بودن آنها برای چشم غیرمسلح دشوار و گاه ناممکن شده است.
و اما مدلهای زبانی بزرگ (LLMs) نظیر GPT-4 و Claude و GEMINI PRO
که هرچند این مدلها پیشرفتهای عظیمی در تولید متن روان و منسجم داشتهاند، اما همچنان در بازتولید و تقلید عمق متن با چالشهای بنیادین دستوپنج نرم میکنند. منظور از عمق متن، آن لایههای زیرین معنا، کنایه، احساسات ضمنی و زیرمتنهای فرهنگی هست که فراتر از ساختار ظاهری و دستوری جمله قرار دارند.
مدلهای زبانی در رسیدن به این لایهها کندتر عمل کردهاند.
حالا سوال این است که چرا هوش مصنوعی در ساختن تصویری که عمیق به نظر میرسد، سریعتر و موفقتر از نوشتن متنی است که حقیقتا عمیق باشد؟
🔹بیایم ابتدا بفهمیم عمق در متن و تصویر دقیقا یعنی چی، و برای ماشین چه مفهومی دارد.
در یک تصویر، عمق پدیدهایست که اغلب به الگوهای فیزیکی و نوری اشاره دارد، گرچه این عمق در تصاویر برای انسان بسیار میتواند هنرمندانهتر باشد اما برای ماشین تنها فیزیک و اعداد مهم هستند.
سایهروشنها، گرادیانهای رنگی و هندسه فضایی، اینها برای ماشین اصطلاحا بینایی میدهند.
عمق اما در متن، پدیدهای معناییست، کاربردی، مبتنی بر واقعیت که ریشه در تجربه زیسته و بافت فرهنگی و اجتماعی دارد.
🔸حالا بیایم بررسی کنیم تصاویر و متن چگونه به Ai آموزش داده میشوند،
این دو مفهوم در نظام شناختی متفاوتی هستند.
🔹برای ماشین در تصویر فیزیک نور و آمار پیکسلها "عمق" اغلب همان معنی وفاداری به قوانین فیزیک نور و ادراک بصری انسان را میدهد.
مدلهای هوش مصنوعی توانستند که این قوانین را با ریاضیات و فیزیک بیرون بکشند و تا حد بالایی شبیهسازی کنند.
این نوع عمق را میتوان در سه سطح دستهبندی کرد که مدلهای هوش مصنوعی در هر سه سطح پیشرفتهای چشمگیری داشتهاند.
▫️سطح اول، عمق فیزیکی:
🔻عمق فیزیکی معمولا به درک فاصله، حجم و موقعیت اشیا در فضا اشاره دارد. این جنبه از تصویر باعث میشود یک تصویر دوبعدی، سهبعدی به نظر برسد.
در مدلهای کلاسیک بینایی ماشین، این مسئله از طریق نقشههای عمق و تخمین فاصله حل میشد.
اما مدلهای مولد جدید، این ویژگیها را دیگر به عنوان قوانین هندسی که قبلا توسط برنامهنویسها کدنویسی میشوند نمیخوانند،
بلکه به عنوان توزیعهای آماری در فضای نهان اصطلاحا Latent space که در اصل یک فضای ریاضیاتی فشرده و پنهان است که مدلهای ماشین لرنینگ از آن برای نمایش دادهها استفاده میکنند.
در این فضا یاد میگیرند.
مطالعاتی نشان میدهد که استفاده از نقشههای عمق در کنار مدلهای انتشار ، به مدلها اجازه میدهد تا ساختارهای فضایی منسجمی تولید کنند که چشم انسان را کاملا فریب میدهند.
در این فرآیند پردازشی سنگین، عمق یک ویژگی سطحی است برای ماشین که از طریق روابط ریاضی و فیزیک صحیح پیکسلها با یکدیگر شبیهسازی میشود. مثلا، کاهش کنتراست در فواصل دور یا تغییر اندازه اشیاء بر اساس پرسپکتیو، همگی الگوهای پیکسلی هستند.
این فرایند برای ماشین کاملا آماری و قابل اندازهگیری است و مدلها با مشاهده میلیاردها تصویر، یاد میگیرند که چگونه این الگوها را تکرار و تقلید کنند و حتی با استفاده از میلیونها تصویر و پیکسل چیزی جدید خلق کنند.
علاوه بر اینها، مدلهای هوش مصنوعی مولد تصویری توانستند که بر چالشهای عمق فیزیکی تقریبا غلبه کنند زیرا قوانین پرسپکتیو و نورپردازی که بر دنیای واقعی حاکم است، کمی هستند و قابل اندازه گیری و قابل کدگذاری.
مدلهای مدرن (مانند شبکههای عصبی GAN یا diffusion یا نانو بنانا پرو گوگل) با مشاهده میلیونها عکس یاد میگیرند که چگونه نور و سایه در صحنهها چیده میشوند و از قواعد هندسی مانند نقطه گریز استفاده کنند.
مطالعات نشان میدهد که این مدلها میتوانند خودبهخود و خودکار پرسپکتیو درست را تشخیص دهند (مانند همگرا شدن جادهها در دوردست) و شدت نور و سایه را بر اساس منبع نور تنظیم کنند.
بنابراین مطالعات میگویند که عمق فیزیکی تصویر با الگوهای ثابت و قانونمندی تعریف میشود که دادههای فراوان تصویری آنها را آشکار میکنند.
تا اینجا فهمیدیم مدلها جگونه بر چالشهای سطح فیزیکی تصاویر میتوانند غلبه کنند.
▫️سطح دوم تصاویر برای ماشین، داستان فرق میکند،
در این سطح عمق سبکی هست که به تقلید از تکنیکهای هنری مربوط میشود.
این شامل مواردی مانند ضربقلمهای ونگوگ، نورپردازی رامبراند، یا بافتهای خاص نقاشیهای امپرسیونیستی است. مدلهای انتشار با مکانیزمهایی تحت عنوان جداسازی موفق شدند که ویژگیهای مربوط به سبک و استایل را از محتوا تفکیک دهند.
پژوهشها نشان میدهند که با استفاده از فضای نهان مدلهایی مانند CLIP، میتوانند بردار استایل را مستقل از بردار محتوا دستکاری کرد.
محتوا مثل: چه چیزی در تصویر هست. مثلاً یه سگ، یه گربه، یا یه ماشین.
استایل مثل: چطور اون چیز نمایش داده میشه. رنگ، روشنایی، زاویه، بافت، هنری یا واقعی بودن تصویر، و غیره.
این تفکیک صرفا در فضای نهان مدل اتفاق میافتد، یعنی مدل یاد میگیرد این ویژگیها را جدا کند، ولی ما نمیتوانیم این کار را روی داده خام پیکسلها انجام دهیم.
این قابلیت به این معناست که هوش مصنوعی میتواند حس یک نقاشی امپرسیونیستی را بدون درک فلسفه پشت آن یا زمینه تاریخیاش، صرفا با بازتولید و تقلید الگوهای بصری (مانند فرکانس رنگ و نوع بافت) تقلید کند. در اینجا، عمق هنری به مجموعهای از ویژگیهای بصری تقلیل مییابد که ماشین در بازتولید آنها استاد است.
این مدلها میتوانند با یادگیری از انبوه آثار هنری و تصاویر نمونه، ساختارهای بصری منسجم و نسبتهای زیباشناختی را تشخیص دهند.
پژوهشی در زمینه استایلآرت نشان میدهد که مدلهای فعلی اکثرا تنها عناصر بصری سطحی مانند رنگ و بافت را تقلید میکنند و قادر نیستند معنی عمیقتر سبک هنری (نیت هنرمند یا بار فرهنگی اثر) را بهطور کامل درک کنند.
تا اینجا فهمیدیم که مدلها در دو سطح تصاویر تا حدی موفق عمل کردهاند،
حالا میپردازیم به سطح سوم و پیچیدهترین سطح پردازشی و معنایی تصاویر.
▫️عمق احساسی، لایه پیچیده تصاویر
پیچیدهترین سطح در تصویر، عمق احساسی هست.
سوال اینه که چطور یک تصویر حس غم یا نوستالژی را منتقل میکند؟
اصلا چطور ارتباط بینشان را میفهمد؟
ما در بینایی ماشین، مفهومی داریم به نام شکاف عاطفی، که به فاصله بین ویژگیهای سطح پایین (پیکسلها) و مفاهیم سطح بالا (احساسات) اشاره میکند.
با این حال، هوش مصنوعی با یادگیری همبستگیهای آماری عظیم بین توصیفات متنی و ویژگیهای بصری، این شکاف را تا حد خوبی پر کرده است.
تحقیقات جدید نشان میدهد که مدلها یاد گرفتهاند ترکیبهای رنگی خاص، زوایای دوربین و حالات چهره را با برچسبهای احساسی مرتبط کنند. برای مثال، تنهایی در زبان بصری هوش مصنوعی به معنای فضای منفی زیاد، رنگهای سرد و فیگورهای کوچک است. این یک ترجمه آماری از احساس به فرم هندسی و ریاضی است. بنابراین، هوش مصنوعی نیازی به احساس کردن تنهایی ندارد تا تصویری عمیقا تنها خلق کند؛ او تنها نیاز دارد الگوی بصری متناظر و مرتبط با واژه تنهایی را اجرا کند.
رنگهای سرد و تضاد کم معمولا با غم همراه هستند نور جانبی و قاب بسته ممکن است حس تنهایی یا درونگرایی را برساند.
تحقیقی اخیرا نشان داده است که مدلهای متن به تصویر توانستهاند ارتباطات معناداری بین ویژگیهای رنگی تصویر و احساسات برقرار کنند؛ مثلا ترکیب رنگهای قرمزِ پررنگ و اشباع شده با احساس شادمانی یا خشم، و روشنایی بالا با حسِ آرامش یا سرخوشی مرتبط میشود،
این نتایج نشان میدهند که احساس تصویر درنهایت برای ماشین از الگوهای قابلشناسایی (رنگ، کنتراست، ترکیببندی) تشکیل شده است.
🔸عمق در متن، لایههای پیچیده معنایی
عمق در متنها ماهیت کاملا متفاوت دارد.
به طور کلی زبان یک سیستم نمادین گسسته هست که معنای آن در خود نمادها نیست، بلکه در ارجاع آنها به جهان، زمینه، فرهنگ، اجتماع، تجربه و نیت گوینده نهفته است.
برخلاف تصویر که سیگنالهایش پیوسته و متراکم هستند، زبان سیستمی انتزاعی و قراردادیست.
🔹عمق معنایی در متن چیست؟
عمق معنایی متن به رابطه واژگان با مفاهیم و واقعیات جهان میگویند.
در مدلهای زبانی بزرگ (LLM) با وجود حجم دادههای تریلیونی، همچنان با مسئله بنیانگذاری نماد مواجهاند.
جان سرل در آزمایشی تحت عنوان اتاق چینی و هیوبرت دریفوس در نقدهای پدیدارشناسانه خود مطرح کرده که دستکاری نحو و دستور لغات، به معنای درک معنا در متن نیست.
هوش مصنوعی میداند که واژه سیب با قرمز و میوه همبستگی آماری دارد، اما هیچ تجربه حسی یا فیزیکی از سیب ندارد. در نتیجه، متون تولید شده توسط هوش مصنوعی اغلب فاقد وزن هستیشناختی هستند.
مدلهای زبانی در سطح معنی سطحی بسیار مهارت پیداکردند، به علت دیدن حجم میلیونی از متنها
که باعث شده ترکیب کلمات را آموخته و جملات بهظاهر روان و منسجم میسازند، اما این سطح تنها لباس مبدل صورت مسئله است؛
زبان همیشه بیش از واژهها منتقل میکند.
🔹عمق کاربردی متن
چالش بزرگتر برای ماشین در لایه کاربردشناسی متن هست.
زبان انسان پر از کنایه، استعاره، طنز و مفاهیم ضمنی است که تنها با درک نیت گوینده و بافت موقعیتی قابل تفسیرند.
در چارچوب کنش گفتار عقلانی که انسانها در ارتباط با دیگران، مدلی از ذهن شنونده را شبیهسازی میکنند و بر اساس آن سخن میگویند.
اما LLMها فاقد نظریه ذهن هستند و نمیتوانند نیتهای پیچیده و چندلایهای را که در پس یک جمله ساده پنهان شده است، درک کنند. پژوهشها نشان میدهند که مدلها در تشخیص نقض عمدی اصول گرایس مانند زمانی که کسی برای طعنه زدن، اصلی را زیر پا میگذارد، شکست میخورند و تمایل دارند جملات را به صورت تحتاللفظی یا با توضیحات اضافی (که عمق را از بین میبرد) تفسیر کنند.
معنی کاربردی/موقعیتی به شرایط و زمینه اشاره دارد؛ مثلا یک جمله ساده مانند "من خستهام" در موقعیتهای متفاوت (شخصی، ادبیات یا طنز) برداشتهای مختلف در پی دارد.
🔹زیر متن، پیچیدهترین لایه متن
عمیقترین و پیچیدهترین لایه متن، زیرمتن است؛ آنچه گفته نمیشود اما شنیده میشود.
همان اصل کوه یخ،
زیرمتن حاصل تجربه زیسته مشترک بین نویسنده و خواننده است. وقتی نویسندهای از سکوت سنگین اتاق مینویسد، خواننده ا بر اساس تجربه خود از تنش اجتماعی، آن را درک میکند.
اما هوش مصنوعی فاقد تجربه است و تجربهای از تنش، درد، یا شرم ندارد. به همین دلیل، تلاش هوش مصنوعی برای تولید زیرمتن اغلب به کلیشههای زبانی ختم میشود که فاقد ظرافت عاطفی واقعی هستند. در متن سطح (واژگان) نمیتواند جایگزین عمق (تجربه) شود، در حالی که در تصویر، سطح (پیکسلها) سازنده عمق است.
برخلاف تصویر احساس یا معنی مخفی در متن با خود واژگان ترکیب نیست که آشکارا قابل تشخیص باشد؛ بلکه نیاز به زمینهی گستردهتر دارد. پژوهشی در سال ۲۰۲۵ نتیجه گرفت که LLMها گرچه توانستهاند دستهبندیهای کلی زبان را مانند انسان تقلید کنند، اما در تشخیص تفکیکهای معنایی ریز و جزئی که برای فهم انسانی ضروری هستند شکست میخورند.
🔸چرا مدلهای هوش مصنوعی در فریب دادن موفق میشوند؟
🔹برای پاسخ به این پرسش باید با متدهای یادگیری ماشین بیشتر آشنا شویم.
🔹مدلهای تصویری چطور آموزش میبینند.
مدلهای تولید تصویر مانند Stable Diffusion، نانو بنانا پرو
در واقع فرایند تولید را به عنوان معکوس کردن نویز مدلسازی میکنند. آنها یاد میگیرند که چگونه از یک آشفتگی کامل (نویز گاوسی) به یک تصویر ساختاریافته برسند. این فرایند ذاتا با ماهیت دنیای فیزیکی و بصری همخوانی دارد.
جایی که اشیا دارای مرزهای مشخص، بافتهای پیوسته و روابط فضایی پایدار هستند.
پژوهشها نشان میدهند که فضای نهان این مدلها توانایی شگفتانگیزی در کدگذاری ویژگیهای سطح بالا (مانند "سبک باروک") و ترکیب آنها با ویژگیهای سطح پایین (مانند "لبهها") دارد. از آنجا که ادراک انسان از "واقعیت تصویری" به شدت وابسته به انسجام نوری و بافتیست.
مدلها با بهینهسازی توابع هزینه ریاضی (مانند FID یا PSNR) میتوانند خروجیهایی تولید کنند که از نظر ادراکی "بینقص" به نظر میرسند.
حتی اگر تصویر از نظر معنایی عجیب باشد (مثلاً فضانوردی سوار بر اسب در مریخ)، اگر نورپردازی و بافت درست باشد، مغز ما آن را به عنوان یک "تصویر واقعی از یک رویداد غیرواقعی" میپذیرد. این یعنی "عمق بصری" (به معنای سه بعدی بودن و حضور فیزیکی) مستقل از "معنای گزارهای" تصویر حفظ میشود.
مدلهای تصویری، بهویژه شبکههای کانولوشنی و ترانسفورمرهای بینایی، با دادههای عظیم و برچسبخورده (تصاویر با نقشههای عمق، سبک، احساس) آموزش میبینند. ساختار دادهها در اینجا پیوسته، کمابهام و مبتنی بر قوانین جهان هست
این ویژگیها باعث میشود که مدلها بتوانند با سرعت و دقت بالا، عمق فیزیکی، سبکی و حتی احساسی را بازتولید کنند.
🔸یادگیری ماشین در مدلهای زبانی
در مقابل، مدلهای زبانی بزرگ چون GPT و Gemini و.. بر اساس پیشبینی کلمه و پارامتر بعدی آموزش میبینند. اگرچه این مکانیزم برای تولید جملات دستوری و حفظ انسجام موضعی به خودی خود قدرتمنده، اما در حفظ "انسجام جهانی" و "نیت پایدار" که لازمه عمق متنی است، دچار مشکل میشوند.
در متن، تغییر یک کلمه میتواند کل معنا و لحن را تغییر دهد. زبان سیستم حساسی است که در آن "پیوستگی" وجود ندارد.
فاصله بین کلمات "عشق" و "نفرت" در فضای برداری ممکن است کم باشد، اما در فضای معنایی و عاطفی بسیار زیاد است. مدلها اغلب در انتخاب کلماتی که بار عاطفی دقیق و زیرمتن مناسب دارند، میل به سمت "میانگین آماری" دارند
این پدیده باعث میشود متون تولید شده اغلب صاف، خنثی و فاقد آن "تیزی" و "ابهام سازندهای" باشند که در ادبیات انسانی وجود دارد.
تحقیقات نشان میدهد که انسانها در بازیهای هماهنگی و زبانی، از نقاط مشترک برای رفع ابهام استفاده میکنند، مهارتی که هوش مصنوعی به دلیل نداشتن تجربه مشترک اجتماعی، در آن ضعف دارد.
مدلهای زبانی با دادههای عظیم اما ناهمگن، پراکنده و وابسته به زمینه آموزش میبینند. معنا در متن، چندلایه، وابسته به تجربه و زمینه، و اغلب مبهم است. به همین دلیل، مدلها حتی با معماریهای پیشرفته، در بازتولید عمق معنایی، کاربردی و زیرمتنی چالش های جدی دارندـ
در واقع، مدلهای زبانی با بهینهسازی برای پیشبینی کلمات، کنایه، زیرمتن، تضادها و ابهامِ معنی را قربانی میکنند، زیرا هدف آنها صرفا کارآمدی آماری است.
🔸چالش ابهام متنها و تصاویر
🔹ابهام بصری
در تصویر، ابهام اغلب با افزودن جزئیات تقریبا حل میشود یا حتی تقویت میگردد. یک نقاشی امپرسیونیستی که چهرهای را مبهم نشان میدهد، از طریق بافت رنگ و نور، احساسی عمیق میتواند ایجاد کند. هوش مصنوعی در تولید این نوع "ابهام سبکی" موفقتر است زیرا یاد گرفته است که ابهام بصری خود یک "الگو" است.
پژوهشها بر روی "استعارههای بصری" نشان میدهد که مدلهای جدید میتوانند مفاهیم انتزاعی (مانند "زمان به مثابه رودخانه") را با ترکیب عناصر بصری (ساعتهای ذوب شده در آب) بازتولید کنند. در اینجا، استعاره به یک ترکیب صریح از اشیاء تبدیل میشود که اگرچه نمادین است، اما از نظر بصری کاملا "روشن" و "واضح" اجرا میشود.
بیننده با دیدن تصویر، بلافاصله استعاره را درک میکند زیرا زبان تصویر جهانیتر و مستقیمتر است.
🔹ابهام متنها
در متن، ابهام (مانند ایهام، کنایه، سکوت) وابسته به کاربرد آن است،
همانطور که ویتگنشتاین در آزمایشی نشان داد "معنا، کاربرد است".
مدلهای هوش مصنوعی زبان را خارج از "بازیهای زبانی" واقعی یاد میگیرند. آنها متن را به عنوان دادههای ایستا میبینند، نه کنشهای پویا در یک بافت اجتماعی.
پژوهشهای اخیر در حوزه "پراگماتیک در عصر LLM" نشان میدهد که این مدلها در درک متونی که نیازمند استنتاجهای چندمرحلهای درباره وضعیت ذهنی گوینده هستند ، عملکرد ناپایدار و شکستخوردهای دارند. برای مثال، اگر شخصیتی در داستان بگوید "چه هوای عالیای!" در حالی که بیرون طوفان است، هوش مصنوعی ممکن است آن را توصیف واقعی هوا تلقی کند یا اگر کنایه را تشخیص دهد، آن را با توضیحی صریح ("او کنایه میزند چون هوا بد است") خراب کند. این ناتوانی در "حفظ ابهام" و تمایل به "توضیح دادن"، عمق متن را از بین میبرد.
در ادبیات، آنچه نگفته میماند (زیرمتن) مهمتر از گفتههاست؛ اما برای مدلی که بر اساس "بیشینهسازی احتمال کلمه بعدی" کار میکند، "نگفتن" گزینهای دشوار است. متن ابهامآمیز به دانش پشتوانه و تفسیر محاورهای نیاز دارد که مدلها آن را ندارند. مدلهای متنی صرفا آماری عمل میکنند و توانایی اشتباه یا سوال اضافی پرسیدن در مواجهه با ابهام را ندارند.
🔹لو مانوویچ نظریهپرداز برجسته رسانههای دیجیتال، او میگوید که هوش مصنوعی مولد، پارادایم "زیباییشناسی سطح" را به اوج رسانده است.
در تاریخ هنر مدرن، حرکت به سمت انتزاع و حذف جزئیات بود تا به "ماهیت" یا "عمق" سوژه برسند. اما هوش مصنوعی مسیری معکوس دارد "رئالیسم مصنوعی" یا "فرا-واقعگرایی" که در آن جزئیات، بافتها و نورپردازی به شکلی اغراقآمیز و بینقص اجرا میشوند.
مانوویچ معتقد است که در تصویر هوش مصنوعی، ما با "شبیهسازی" مواجهیم نه "بازنمایی"
از آنجا که در تصویر، جذابیت زیباییشناختی تا حد زیادی به همین ویژگیهای سطحی (رنگ، ترکیببندی، بافت) وابسته است، مخاطب معمولی و حتی متخصصان به راحتی این "سطح غنی" را به عنوان "عمق هنری" میپذیرند. ما نیازی نداریم بدانیم که آیا نقاش واقعا غمگین بوده تا از تماشای یک منظره غمانگیز و زیبا لذت ببریم. "زیباییشناسی سطح" در تصویر کفایت میکند.
🔸توهم در متن و تصویر
اصطلاح "توهم" که برای خطاهای LLM به کار میرود،
وقتی مدلی متنی زیبا اما دروغین درباره یک واقعه تاریخی مینویسد، زیبایی سطحی آن نمیتواند شکست در "عمق حقیقت" را پنهان کند. در تصویر، "دروغ" میتواند هنر باشد؛ در متن (غیر داستانی)، دروغ صرفا خطاست.
حتی در داستاننویسی، عدم رعایت "منطق درونی" شخصیتها (که نیازمند درک عمیق روانشناختی است) باعث میشود متن سطحی و غیرقابل باور به نظر برسد.
🔸فرایند فیزیکی تولید تصویر و احساس
در فیزیک ماشین تولید تصویر و دینامیکهای انتشار با الهام از ترمودینامیک غیرتعادلی طراحی شدهاند و فرایند تولید تصویر را به عنوان معکوس کردن یک فرایند آنتروپیزا میبینند. تحقیقات نشان میدهد که فرآیند بازگشت از آشوب (نویز) به نظم، خطی نیست و دارای فازهای متفاوتیه،
▫️فاز پروفایلسازی که در مراحل اولیه هست و مدل بر بازیابی میانگینهای کلی و توزیعهای آماری کلان تمرکز دارد.
در این مرحله، قالب کلی تصویر و پالت رنگی تعیین میشود. از آنجا که "احساس" تصویر به شدت به ویژگیهای کلی نظیر رنگ و نور وابسته است، بنیانهای عاطفی تصویر دقیقا در همین فاز اولیه و با سرعت بالا شکل میگیرند.
▫️فاز جه، در مراحل میانی، مدل شروع به تفکیک اشیاء و ایجاد فرمهای مشخص میکند.
▫️فاز پالایش در مراحل پایانی و سطح پایبن، مدل بر روی جزئیات فرکانس بالا و دقیقسازی لبهها تمرکز میکند. این همان جایی است که ساختارهای دقیق آناتومیک باید شکل بگیرند.
ویژگیهای عاطفی (رنگ، نور) در همان مراحل اولیه زمان تولید تثبیت میشوند. اما صحت و درستی ساختاری نیازمند موفقیت کامل فاز سوم (پالایش) است. هرگونه خطا در مراحل پایانی، ساختار را تخریب میکند، اما تأثیر چندانی بر بار عاطفی (که قبلا تثبیت شده) ندارد.
🔹نوسان فراموشی
تحقیقات جدید نشان میدهند که مدل ممکن است در مراحل میانی به یک پاسخ ساختاری صحیح برسد، اما در مراحل بعدیِ نویززدایی، به دلیل تلاش برای بهینهسازی بافت، ساختار صحیح را بازنویسی کرده و تخریب کند.
مدلها اغلب با تضادی میان زیبایی بافتی و صحت ساختاری مواجه میشوند. توابع هزینه معمولا بر تطابق پیکسلی یا ویژگیهای ادراکی تمرکز دارند، بنابراین مدل ممکن است ترجیح دهد بافتی بسیار زیبا و واقعگرایانه تولید کند، حتی اگر این کار به قیمت ادغام شدن دو انگشت تمام شود یا دست و پاهای سوژه را جا به جا کند.
در واقع، مدل زیباییشناسی بافت (حامل احساس) را بر منطق هندسی ترجیح میدهد.
🔸نظریات مرتبط
🔹تقدم عاطفی
زاجونک در دهه ۱۹۸۰ فرضیه مشهور تقدم عاطفی را مطرح کرد که بیان میکند واکنشهای عاطفی میتوانند پیش از و مستقل از پردازش شناختی دقیق رخ دهند. وقتی انسان با یک تصویر AI مواجه میشود، دو مسیر پردازش فعال میشود:
پردازش سریع (مسیر آمیگدال)،
که اطلاعات فرکانس پایین (رنگ، تاری، نور) بلافاصله توسط سیستم لیمبیک پردازش شده و یک پاسخ عاطفی (ترس، لذت، آرامش) ایجاد میکنند. این اتفاق در میلیثانیههای اول رخ میدهد.
پردازش کند (مسیر قشری)،
که کورتکس بینایی شروع به تحلیل دقیق اجزاء، شمارش انگشتان و بررسی پرسپکتیو میکند.
از آنجا که مدلهای AI در تولید محرکهای مسیر اول (فرکانس پایین) استاد هستند، ضربه عاطفی قبل از اینکه نقد ساختاری فرصت بروز پیدا کند، به بیننده وارد میشود. حتی وقتی بیننده متوجه خطا میشود، اثر عاطفی اولیه قبلا ثبت شده است و بیننده فریب میخورد.
🔸پژوهش Emo Gen
پژوهشگران در توسعه مدل EmoGen، تأثیر استفاده از توابع هزینه مختلف را بر خروجی مدل بررسی کردند.
نتایج نشان داد که مدل پایه دارای دقت عاطفی ۷۲.۴٪ و نمره کیفیت ساختاری ۱۶.۵ است.
با افزودن مکانیزم اطمینان عاطفی، دقت عاطفی به ۸۵.۳٪ جهش کرد.
نکته اینه که کیفیت ساختاری بهبود چشمگیری نمیکند (به ۱۴.۸ میرسد)
و وضوح معنایی نیز تغییر اندکی میکند.
🔹گزارش دانشگاه استنفورد
گزارش AI Index 2025 دانشگاه استنفورد نشان میدهد که بنچمارکهای تصویر مانند ImageNet اشباع شدهاند و مدلها از انسان پیشی گرفتهاند. کاهش مداوم کیفیت ساختاری نشاندهنده بهبود واقعگرایی ادراکی است. اما در متن، بنچمارکهای جدیدتر که بر نظریه ذهن و پراگماتیک تمرکز دارند، همچنان شکاف قابل توجهی بین مدلها و انسان نشان میدهند. مدلها در استدلال سخت (مانند ریاضیات) فرا بشری شدهاند، اما در درک باورهای غلط و کنایه ضعف شدید دارند.
🔸آیا هوش مصنوعی در متن شکست خورده است؟ خیر.
هوش مصنوعی در متن متفاوت عمل میکند؛ هوش مصنوعی دایرهالمعارف هوشمندی است اما نه یک فیلسوف یا یک شاعر و نویسنده،
برای اینکه هوش مصنوعی بتواند در متن به همان عمقی برسد که در تصویر رسیده است، و همچنین برای اینکه بتواند ساختار را در تصویر اصلاح کند، احتمالا نیاز به تغییر پارادایم از یادگیری آماری روی دادههای ایستا به یادگیری تجربی در محیطهای تعاملی و استفاده از مدلهای واقعیت جهان خواهیم داشت.
همانطور که یا لکان مدیر هوش مصنوعی شرکت متا و یکی از پدران Ai میگوید:
مدلهای زبانی فعلی هرگز به هوش واقعی انسان نمیرسند چون درک درستی از واقعیت ندارند. ما به یک معماری کاملا جدید نیاز داریم.
امیدوارم از مقاله لذت برده باشید.
نظرات (1)
عالی
برای ارسال نظر، لطفاً وارد شوید یا از دکمه شناور استفاده کنید.